iT邦幫忙

2023 iThome 鐵人賽

DAY 8
0

昨天訓練前,沒注意看讀取訓練資料的路徑設定,沒有把前處理的資料wiki跟medical的資料做pretrain.py,這邊要補一下;今天只好再重新放著做pretrain。

data_path_list=[
    #'./data/pretrain_data.bin',
    #'./data/baidubaike_563w.bin',
    './data/medical_book.bin',
    './data/medical_encyclopedia.bin',
    # './data/medical_qa.bin',
    './data/wiki.bin'
]

為了要能夠下載完整的百度中文資料,今天試了好幾個小時,就是沒有辦法收到百度的驗證信,看起來台灣人要辦百度帳號實在比我想像的要麻煩,不確定是否可以搞定,剛好我在大陸公司工作所以目前打算同步找個大陸人看能不能幫忙下載或借個帳號。


上一篇
Day 7 - Baby LLama2 Chinese
下一篇
Day 9 - Baby LLama2 Chinese (3)
系列文
用單張顯卡探索大型語言模型的奧秘30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言